#Seedream 5.0 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Seedream 5.0

從Gemini到豆包：全球兩大AI巨頭為何走上同一條路？

視訊模型Seedance 2.0、圖像模型Seedream 5.0 Lite連續刷屏後，2月14日，字節跳動正式宣佈推出豆包大模型2.0（Doubao-Seed-2.0，簡稱豆包2.0）系列。自2023年，豆包大模型初始測試版上線，2024年正式對外發佈，豆包代際模型版本更新已經過去近一年半時間。其間持續在文字基礎、多模態強化、深度思考、Agent（智能體）執行等方面更新，直至此次版本，在2.0全能力升級。此次備受關注的2.0版本，具備全端模型矩陣 + 多模態理解 + 企業級 Agent + 極致成本四大差異化優勢，已躋身全球第一梯隊，成為 Agent 時代的關鍵玩家。在多項公開測試集上表現突出，接近Google Gemini3，和具備更高性價比。字節跳動官方明確表示，旗艦版豆包2.0 Pro“面向深度推理與長鏈路任務執行場景，全面對標GPT 5.2與Gemini 3 Pro”。從技術參數到產品定位，豆包2.0與Google Gemini的相似性正在從“對標”走向“一致”。而這種“一致”並非偶然的“撞車”，本質是全球頂尖AI實驗室在通往通用人工智慧（AGI）路徑上達成的戰略共識——AI最終需要為人類完成任務執行，而這需要對真實世界物理運行規律的理解。版本代際更新此次更新，豆包2.0 系列模型提供 Pro、Lite、Mini 三款不同尺寸的通用 Agent 模型。該系列通用模型的多模態理解能力實現全面升級，並強化了LLM 與Agent 能力，使模型在真實長鏈路任務中能夠穩定推進。同時進一步把能力邊界從競賽級推理擴展到研究級任務，在高經濟價值與科研價值任務評測中達到業界第一梯隊水平。據官方介紹，此次豆包2.0針對大規模生產環境的使用需求進行系統性最佳化，旨在更好地完成真實世界的複雜任務。其中，在語言模型基礎能力上，豆包2.0 Pro旗艦版取得IMO、CMO數學競賽和ICPC程式設計競賽金牌成績，數學和推理能力達到世界頂尖水平。另外，大模型執行長鏈路複雜任務，需要豐富的世界知識。豆包2.0加強了長尾領域知識覆蓋，在SuperGPQA等多項公開測試集上表現突出，科學領域知識測試成績與Gemini 3 Pro和GPT 5.2相當，在跨學科知識應用上也排名前列。在教育、娛樂、辦公等眾多場景中，大模型需要理解圖表、複雜文件、視訊等內容。對此，豆包2.0全面升級多模態理解能力，視覺推理、空間感知、長上下文理解等權威測試均取得業界最佳表現。面對動態場景，豆包2.0強化了對時間序列與運動感知的理解能力。以健身場景為例，接入豆包2.0的智能健身App可即時分析使用者動作視訊，一旦檢測到深蹲姿勢偏移，立即語音糾正——這正是環境感知與主動互動能力的落地。目前，這一能力已延伸至穿搭建議、老人看護等領域。Agent能力是大模型具備行動力的關鍵。測試成績顯示，豆包2.0 Pro在指令遵循、工具呼叫和Search Agent等評測中達到頂尖水平，在HLE-Text（人類的最後考試）上更是獲得54.2的最高分，大幅領先於其他模型。目前，豆包2.0 Pro已在豆包App、電腦客戶端和網頁版上線，使用者選擇專家模式即可對話體驗。火山引擎也已上線豆包2.0系列模型API服務。價格方面，豆包2.0 Pro按“輸入長度”區間定價，32k以內的輸入定價為3.2元/百萬tokens，輸出定價為16元/百萬tokens，相比Gemini 3 Pro和GPT 5.2有較大的成本優勢。豆包2.0 Lite更是極具性價比，綜合性能超越兩個月前發佈的上一代主力模型豆包1.8，百萬tokens輸入價格僅為0.6元。強化執行任務能力此次豆包2.0的全面升級，核心落點在“真實世界複雜任務的執行力”。而這一能力的根基，正是多模態理解層的突破——只有讓模型真正看懂物理世界的動態與邏輯，它才能從“答題者”進化為“執行者”。字節模型團隊觀察到一個典型失衡：語言模型已經可以順利解決競賽難題，但放在真實世界中，它們依然很難端到端地完成實際任務——比如一次性建構一個設計精良、功能完整的小程序。LLM 和 Agent 為什麼在處理現實問題時屢屢碰壁？團隊認為，原因主要來自兩點：真實世界任務往往跨越更長時間尺度、包含多個階段，而現有LLM Agent 難以自主建構高效工作流，並在長時間跨度中積累經驗；真實世界知識具有很強的領域壁壘且呈長尾分佈，各行業的經驗不在訓練語料的高頻區，導致即便模型擅長數學與程式碼，其在專業場景中往往價值有限。在提升了長程任務執行能力的同時，Seed2.0 還進一步降低了推理成本。其模型效果與業界頂尖大模型相當，同時 token 定價降低了約一個數量級。在現實世界的複雜任務中，由於大規模推理與長鏈路生成將消耗大量token，這一成本優勢將變得更為關鍵。另外在多模態理解能力方面，豆包2.0Pro在視覺推理、空間感知、運動理解、長視訊理解等維度，在大多數相關基準測試中取得最高分。此前刷屏AI視訊模型Seedance2.0正是多模態能力支撐的體現之一。Seedance 2.0核心升級主要體現在原聲音畫同步、多鏡頭長敘事、多模態可控生成。使用者輸入提示詞與參考圖，可一鍵生成帶完整原生音軌的多鏡頭視訊，模型自動解析敘事邏輯，確保角色、光影、風格與氛圍高度統一。此前馬斯克點評稱：模型發展非常迅速。據官方介紹，豆包2.0可以處理複雜視覺輸入，並完成即時互動和應用生成。無論是從圖像中提取結構化資訊，還是通過視覺輸入生成互動式內容，Seed2.0都能高效、穩定地完成任務。這正是Gemini一直強調的“原生多模態”能力——不是簡單拼接視覺與語言，而是在底層實現跨模態的深度對齊。豆包2.0的升級方向與Google的Gemini 3 Pro在視訊理解、空間推理上的優勢高度一致。而豆包2.0與Gemini在基礎模型層面均選擇死磕多模態，本質上是在進行一場 “世界模型”的軍備競賽。它們不再滿足於讓AI做一個“語言遊戲高手”，而是希望AI成為一個能看懂、聽懂、理解物理世界複雜性的“數字人類”。只有當模型真正理解了杯子為什麼會碎、人為什麼會笑、視訊裡的人在做什麼動作，它才能在現實世界中可靠地執行任務。 (第一財經)

整整21個月，豆包大模型正式進入2.0時代！

在Seedance 2.0和Seedream 5.0 Lite，一波接一波爆火之後，豆包把完全體拿出來了——豆包大模型2.0。這是時隔21個月以來的最大版本的更新。像Seedance 2.0已經成為全民玩轉的AI，我們也試著做了一個視訊：短短5秒鐘，效果確實是足夠逼真。也難怪老外也開始研究怎麼註冊中國手機號來體驗了……再如Seedream 5.0 Lite，首次支援聯網檢索，生成的圖片也達到了商業化的水平：而就在今天，在視覺模型火爆之後，豆包終於把那個最核心的大腦拿出來了——豆包大模型2.0。整體來看，這次豆包大模型2.0在多模態理解、企業級Agent、推理和程式碼能力上都有了不少的提升：更強多模態理解：在多模態感知、高精度文字提取、圖表理解、空間理解、運動理解、視覺知識和推理、長視訊理解等方面表現出色。企業級Agent能力：模型能更好支援對技能（Skills）的理解和應用，Function Call 、多輪指令遵循、搜尋和工具呼叫能力顯著增強，格式輸出更穩定，支援靈活的上下文管理，更好地支援企業級複雜、長程任務，在資料分析和客服Agent等企業場景中表現出色。數學和程式碼推理能力：模型具備更強推理能力，支援思考長度可調節，且各思考長度下，Tokens效率都有大幅提升。在ICPC、IMO、CMO測試中均獲得金牌成績。更直觀的提升，體現在榜單測評中。例如在MathVista、MathVision、MathKangaroo、MathCanvas等數學推理基準上達到業界最優水平。同時，在 LogicVista、VisuLogic等視覺解謎與邏輯推理基準上，Seed2.0 Pro得分較Seed1.8顯著提升。並且在VLMsAreBiased、VLMsAreBlind、BabyVision等基準中，豆包大模型2.0取得了業界最高分！那麼接下來，還是老規矩，一波實測，走起~零幀手搓《我的世界》首先，我們就要測試最近各家都在主推的程式碼能力。在字節旗下的AI程式設計軟體TRAE中，我們目前就能體驗豆包大模型2.0的能力：我們就先以3D模仿求解器的案例，來小試牛刀一下：你幫我寫一個能解決魔方的群論演算法，然後用前端頁面演示下吧，要求美觀，本地當前資料夾下的所有檔案都可以直接編輯刪除和覆蓋。不難看出，豆包大模型2.0很好的理解了基於群論的智能演算法，並且在視覺和互動上也是比較驚豔。面對複雜的物理模擬，也是不在話下：接下來，我們來一個更加複雜且長任務的測試——3D版大富翁遊戲。請欣賞效果：可以看到，豆包大模型2.0依舊是穩穩拿捏。難度再上一層樓，這次我們直接做一個《我的世界》：同樣也是稍等幾分鐘，高仿版《我的世界》就誕生了：並且豆包官方也展示了通過豆包大模型2.0和TRAE生成的“AI春節廟會”：當然，像模擬可互動的蘋果電腦系統這種任務，也是非常輕鬆實現：除了程式設計之外，像複雜的圖解問題，豆包大模型2.0也是可以輕鬆拿捏。例如我們直接丟給它這樣一張圖：豆包大模型2.0在接收到問題之後，立即給出了正確答案：類似的，複雜的數學問題也是不在話下。由此可見，豆包大模型2.0在推理、程式設計和數學問題上，都有明顯的性能提升。為什麼現在才是2.0的節點？實測下來，最直觀的感受是：豆包大模型2.0變穩了。它不再滿足於陪你聊天，而是試圖幫你寫完一個項目、算出一個難題、畫出一張商用級海報。這也引出了一個問題：為什麼現在才是2.0的節點？過去一年，大模型行業陷入了卷參數和卷價格的混戰。但字節跳動似乎一直在憋大招。這個時間點發佈2.0，或許是因為在資料質量、訓練效率，以及應用效果都突破了一個新的臨界點。特別是在Agent場景下。真正的企業級應用，不是靠聊天解決的，而是靠行動。豆包 2.0 展現出的工具呼叫能力和長程任務規劃能力，顯然是衝著ToB和生產力工具去的。性價比是否更具優勢？答案是肯定的。在測試中我們發現，雖然能力變強了，但推理速度並沒有明顯的延遲。據技術報告顯示，Seed-2.0系列（包括 Pro、Lite、Mini）在同等性能下，通過架構最佳化，大幅提升了Tokens效率。這意味著，企業用它來做客服、做資料分析、寫程式碼，成本會更低。現在，豆包大模型2.0已經全面上線，感興趣的小夥伴可以去試試嘍~ (量子位)

Seedream 5.0預覽版上線！字節又一新模型

新模型對標Nano Banana Pro，能免費體驗。Seedance 2.0的熱度還沒下去，字節新模型又來了！智東西2月10日報導，今日，字節圖像生成模型Seedream 5.0 Preview在視訊編輯應用剪映、剪映海外版Capcut、字節AI創作平台小雲雀均已上線，在即夢AI平台開啟灰度測試，圖片生成可限時免費體驗。▲Capcut官宣截圖（左）、小雲雀首頁模型選擇（右）Seedream 5.0 Preview的圖像支援2K和4K解析度輸出，2K為圖片生成直出，4K為AI增強後的解析度。根據Capcut官網，新模型5.0 Preview的升級點為首次支援檢索生圖，對提示詞的理解精準性增強、支援更細節、精緻紋理的圖像生成，還允許使用者精確調整圖像。Seedream 4.5於2025年12月4日上線。智東西實際體驗並對比了Seedream 5.0 Preview與Nano Banana Pro、Seedream 4.5，發現新模型可以理解“靜謐科技感”等抽象提示詞，但最後的生成效果相比Seedream 4.5很難說有跨越式提升，其聯網搜尋能力尚不穩定、生成效果升級點體現在更美觀、多樣化上。Capcut的官宣推文裡提到，Seedream 5.0 Preview可與Nano Banana Pro對標，且更便宜，目前所有使用者可免費使用20次，美國地區之後上線。有網友對比了Nano Banana Pro、ChatGPT、Seedream 5.0 Preview、Grok Imagine Image的生成效果，其提示詞為：生成一張高品質的資訊圖，解釋在特拉普修道院製作啤酒的過程，並配有豐富的插圖。▲第一排從左至右為Nano Banana Pro、ChatGPT生成，第二排從左至右為Seedream 5.0 Preview、Grok Imagine Image生成相比於其他幾個，Seedream 5.0 Preview的步驟解釋最為詳細，每步都有詳細的文字說明，但藝術設計感相比Nano Banana Pro稍弱。從社交平台X上的網友評論來看，此次Seedream 5.0預覽版的升級優先考慮的是智能水平而非美觀，可以應對複雜的知識驅動型任務。有網友認為，Seedream 5.0 Preview的智能水平、中文能力有提升，但都比不上Nano Banana Pro。還有網友調侃，新模型的進步程度僅0.09，僅相當於加了網路搜尋的Seedream 4.5。01.三大能力增強主攻實用性需求根據Capcut官網，此次Seedream 5.0 Preview的重要升級點包括精準性與智能水平增強、更快更具表現力的圖像建立、支援聯網知識整合。首先在智能水平方面，Seedream 5.0 Preview能深入理解提示詞，生成與使用者意圖相匹配、細節精準、佈局清晰、文字渲染效果更佳的圖像。第二點是增強風格化效果，其圖像到圖像功能增強了風格化效果，模型可以提供更清晰的細節、精緻的紋理和平衡的照明。該模型還新增了編輯功能，使用者可以控制筆刷精準選擇並調整相應元素。最後是智能推理能力，其官網提到，新模型的多步邏輯、空間理解及特定領域知識增強。02.相較Seedream 4.5提升小能理解抽象需求智東西體驗了Seedream 5.0 Preview的圖片生成能力。第一個提示詞是“為《靜夜思》生成古詩插圖”，可以看到生成的結果中人物“舉頭望明月”這一關鍵元素都沒有缺失，還附上了人物在月光下的影子等，但原詩中的“床前”等沒有在圖片中涉及到。為了考驗Seedream 5.0 Preview的聯網搜尋能力，智東西輸入了提示詞“最近有很多家機器人都要參加2026春晚，生成一張已官宣參加春晚的機器人海報”。Seedream 5.0 Preview生成的視覺元素精準，在大段文字生成中也未出現亂碼，表現穩定。但其並沒有理解“已官宣參加春晚的機器人”，而是僅生成了機器人上春晚的海報。還有抽象的提示詞，智東西輸入“生成一個靜謐科技感且帶有落日餘暉氛圍的鬧鐘圖片”，新模型生成的圖片中，從鬧鐘的設計到背景將落日、科技感融合在了一起。關於更為細緻的圖像輸出，提示詞為“特寫電影感肖像，一位有雀斑、深色捲髮的年輕女性，被鮮豔的野花和藤蔓環繞，頭上戴著花冠。在黃金時段拍攝，溫暖的逆光在她的頭髮和皮膚上形成光暈，淺景深，前景花朵柔焦，照片級真實感”。可以看到，輸出的圖片中的逆光效果非常到位，髮絲邊緣的光暈、皮膚的光澤以及前景花朵的柔焦虛化，都營造出了自然的氛圍感。當智東西的提示詞為“最新奧斯卡獲獎者紅毯風格”時，Seedream 5.0 Preview可以直接生成有紅毯、背景板、攝影師的完整圖像，背景板還有不少奧斯卡的小金人。根據參考圖生成圖片方面，智東西上傳了最近熱度超高的《閃靈》男主傑克，並讓Seedream 5.0 Preview“生成這個人的拜年圖片，主人公要身有年味的服裝，手拿燈籠和對聯”。生成的效果中，主人公的面部與參考圖一致，手拿燈籠、對聯的元素也都具備。智東西還比較了Seedream 5.0 Preview與Nano Banana Pro的生成效果。一個超難提示詞為“生成一個用左手寫字的人，背景有一個顯示5:25的模擬時鐘”，Seedream 5.0 Preview與Nano Banana都失敗了，要麼是拿筆的手不對，要麼是背景的鐘錶時間不對。Nano Banana Pro生成的圖片中，人物握筆的手為左手，可以從模糊的時鐘看出其時間為5:30左右。▲Nano Banana Pro生成的圖片雖然Seedream 5.0 Preview有些圖片生成的並不精準，但其一次性生成的圖片更具多樣性，從現代風、古風到卡通都有。▲Seedream 5.0 Preview生成的圖片在比較Seedream 4.5和Seedream 5.0 Preview時，智東西上傳的提示詞是“幫我生成番茄炒雞蛋的菜譜，卡通風格”。相比之下，Seedream 5.0 Preview的整體排版、架構設計會更為美觀。▲上為Seedream 4.5生成的圖片，下為Seedream 5.0 Preview生成的圖片03.結語：圖像模型正朝實用能力升級迭代當前頭部圖像模型的迭代路徑，正朝著提升理解能力、可控生成、編輯精度等實用能力升級。從Seedream 5.0 Preview的升級來看，其選擇在檢索增強、細節紋理、精準調整、4K增強上做最佳化，生成的結果並沒有顛覆性效果，這或許更貼近使用者的實際需求。但從實測與輿論反饋來看，使用者對小版本迭代的感知正在變弱，尤其在抽象語義理解、文字渲染、複雜邏輯構圖等方面仍存在技術瓶頸。 (智東西)